视觉定位,即相机姿势估计的问题,是应用程序和增强现实系统等应用的核心组成部分。文献中的主要方法是基于从图像中提取的局部特征来扩展到大型场景并处理复杂的照明和季节性变化。场景表示形式是与特定本地特征相关的稀疏结构云。切换到另一种功能类型需要在用于构造点云的数据库图像之间昂贵的功能匹配步骤。在这项工作中,我们基于密集的3D网格探索了一个更灵活的替代方案,该替代方案不需要在数据库图像之间匹配的功能来构建场景表示。我们表明,这种方法可以实现最新的结果。我们进一步表明,当在没有任何神经渲染阶段的渲染效果上提取功能时,即使在没有颜色或纹理的原始场景几何形状时,也可以获得令人惊讶的竞争结果。我们的结果表明,基于3D模型的密集表示是现有表示形式的有希望的替代方法,并指出了未来研究的有趣且具有挑战性的方向。
translated by 谷歌翻译